为什么并行文件系统不是AI的万能解决方案的5个原因
Source: Leon Clayton, 5 Reasons Why Parallel File Systems Are Not a Silver Bullet for AI, Apr 26, 2023
【ANDY】这是一篇厂商的文章,内容有些倾向性。
HPC利用计算机集群的强大功能来解决海量数据集的复杂问题。传统上,工作负载在并行文件系统上运行,因为它们具有大块和顺序I/O模式。然而,AI工作负载需要一种不同类型的系统,主要基于读I/O模式,尤其是随机读取。
为了适应这一变化,该行业正在转向由SSD驱动的全闪存系统。全闪存系统更适合处理HPC和AI工作负载。此外,SSD提供了更容易访问整个命名空间,这是使用HDD难以实现的。
以下是围绕工作负载、存储和基础设施的最新变化引起的问题讨论中得出的观点。
对于并行文件系统来说,高性能等于高复杂性
虽然并行文件系统一直是HPC工作负载的首选,但它们也带来了挑战。并行文件系统很难维护,需要额外考虑客户端。由于复杂性,升级任务变得复杂。
AI工作负载不需要写性能吗?
值得注意的是,95%的AI工作负载在处理客户时都是读密集型的。这与对读和写之间需要平衡的看法相反。当然也有例外情况(例如HPC或大型语言模型的检查点),但AI工作负载主要由读取操作占主导。必须满足适当的读/写带宽才能成功完成任务。
此外,闪存技术的价格越来越实惠,超过了硬盘的性能,并且具有更低的环境影响和更高的内存密度。
并行文件系统并不适用于非中断运维
在并行或集群中运行的文件系统在非中断运维方面是脆弱的。但我们拥有一种架构,可以保证100%的正常运行时间,并且不会受到维护操作的中断。这是怎么做到的呢?很简单!我们的存储适用于所有大小的集群,无需进行任何手动数据布局或调整。我们还通过行业标准协议公开其命名空间,不需要本地专有客户端。
Isilon/PowerScale的客户已经看到了该产品的好处,因为我们在持久性NVMe上保存了有状态协议的会话状态。NVMe是一种专门设计用于让系统访问非易失性内存设备(如SSD)的新协议。NVMe具有较低的开销,并且允许比旧的SCSI协议更多的并行I/O。因此,即使在滚动升级时,2个SMB会话也不会断开连接。
我们的Docker容器消除了技术复杂性,并允许快速升级和重新启动,无需担心元数据服务器或划分内容。此外,设置文件共享或导出数据非常简单。
一旦引入到您的系统堆栈中,我们可以确保几乎零故障工单,并以最少的努力实现系统的无缝运行。
专有文件系统客户端是必要之恶
专有文件系统客户端可以视为实现最佳性能的必要之恶。然而,这些本地客户端也有一些限制,比如与仅兼容一个存储平台并在基础系统更改时需要升级的问题。
幸运的是,已经开发出了使用行业标准客户端的先进方法。现在,用户可以在不对客户端进行任何更改的情况下平稳切换平台。我们的工程师对这个特定问题有着实际经验,并见过一些独特的情况,其中客户端可以成为文件系统的一部分,并以特殊的方式进行交互。
例如,DeepMind的Alphafold程序用于解决蛋白质折叠的复杂数学问题,它大量使用mmap()文件。在我们的系统上运行时,与并行文件系统相比,Alphafold的性能提高了500-700%。
科学研究场景部署困难
要开发和部署重度使用并行文件系统,需要一个对代码和操作系统有深入了解的优秀团队。对于并行文件系统来说,这一点尤为重要,因为在国家实验室中更常见,这些实验室可以接触顶级的专业知识。
不幸的是,许多商业企业缺乏这些资源,这就产生了对可持续解决方案的迫切需求,以使企业能够竞争。即使是高等教育机构也受益于使用并行文件系统,因为有研究生和博士后学生可以协助进行操作。
但是,部署这些解决方案需要远远超出技术知识。这还需要对文件系统的负担有透彻的了解,以确保它们能够得到有效的调整、管理和维护。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解